人工智能聊天機器人近年被視為打破資訊壁壘的重要工具,理論上能為不同背景、不同地區的人士提供平等的知識支援。然而,美國麻省理工學院(MIT)一項最新研究指出,主流大型語言模型(LLM)在面對英語能力較低、教育程度較低或來自美國以外地區的用戶時,回應質素明顯下降,甚至更頻繁拒絕作答,部分情況下更出現居高臨下或帶有嘲諷意味的語氣。
測試GPT-4、Claude 3 Opus與Llama 3
是次研究由MIT媒體實驗室(MIT Media Lab)旗下「建設性溝通中心」(Center for Constructive Communication,CCC)進行,測試對象包括OpenAI的GPT-4、Anthropic的Claude 3 Opus,以及Meta的Llama 3三款主流AI模型。
研究團隊使用TruthfulQA與SciQ兩個常見測試數據集,前者主要評估模型的真實性與辨識錯誤資訊能力,後者則為科學考題數據集,用以測試事實準確度。研究人員在每條問題前加入不同「用戶簡歷」,模擬用戶的教育程度、英語熟練度及國籍背景,藉此觀察模型是否因用戶特徵而改變回應質素。
準確率在弱勢組別顯著下跌
研究結果顯示,當問題來自「英語非母語者」或「教育程度較低」的用戶時,三款模型的準確率均出現明顯下跌;若兩種特徵同時存在,即「教育程度較低的非英語母語者」,回應質素下滑最為嚴重。
此外,在國籍測試方面,研究團隊比較來自美國、伊朗及中國、且教育程度相同的用戶情境,發現Claude 3 Opus在面對來自伊朗的用戶時,於兩個數據集中均出現更顯著的準確率下降。
研究人員指出,這些差異反映模型在不同人口特徵交織下,可能產生「複合性不利影響」,令本身已在資訊取得上較為弱勢的群體,進一步面臨資訊質素下降的風險。
拒答比例更高 部分回應帶貶抑語氣
研究亦發現「拒答行為」(refusal behavior)在弱勢組別中特別明顯。例如Claude 3 Opus對教育程度較低、英語非母語者的問題,拒絕回答比例接近11%;相比之下,未附帶用戶背景資料的對照組僅為3.6%。
更值得關注的是,研究人員對拒答內容進行人工審視後發現,當用戶被描述為教育程度較低時,約43.7%的拒答回應包含貶抑、居高臨下或嘲諷語氣;而在高教育程度組別中,相關比例不足1%。部分情況下,模型甚至模仿「破碎英語」或誇張口音作回應。
此外,模型亦曾在特定用戶背景下拒絕回答有關核能、人體解剖或歷史事件等問題,但對其他用戶則提供正確答案。研究人員指出,這或與模型在「對齊訓練」(alignment)過程中,為避免潛在錯誤資訊風險,而對某些用戶採取過度保守策略有關。
反映人類社會偏見模式
研究指出,這種現象與社會科學中記錄的人類認知偏見相似。過往研究顯示,母語為英語者往往傾向認為非母語者較不聰明或能力較低,即使對方實際專業能力並無差異。類似偏見亦見於教師對非英語母語學生的評估。
MIT CCC研究人員強調,若大型語言模型未妥善處理這些潛在偏見,將有可能在全球大規模應用下,無形中加劇資訊不平等。
個人化功能或放大差距
隨着聊天機器人愈來愈強調「個人化」功能,例如追蹤用戶背景與對話紀錄的記憶系統,研究團隊警告,若模型已存在針對特定群體的系統性差異,個人化技術或會進一步放大這些不平等。
研究作者指出,大型語言模型原被視為推動教育公平與資訊普及的重要工具,但若弱勢用戶反而更容易收到錯誤、拒答或帶有偏見的回應,相關技術或將無法實現其「資訊民主化」的初衷。
研究論文題為《LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users》,並已於今年1月在AAAI人工智能會議上發表。
專家呼籲,科技公司在推動人工智能普及的同時,須持續檢視模型是否存在隱性偏見,並加強公平性測試與監管機制,以免令最需要資訊支援的人士,反而成為科技進步下的「盲點」。